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摘 要: [目的 /意义 ] 疫情 信息 碎片 化 和 非 结 构 化 给 应 急 决 


策 带 来 了 挑战 。 为 支撑 应 急 决策 数字 化 和 促进 应 急 管理 智能 
化 ,结合 自然 语言 处 理事 件 本 体 实现 疫情 信息 管理 和 知识 表示 的 自动 化 。[ 方法 /过 程 ] 提出 一 种 基于 网 络 爬 虫 、 
自然 语言 处 理事 件 本 体 的 领域 本 体 知 识 库 自动 构建 策略 。 首 先 ,运用 网 络 让 虫 和 自然 语言 处 理 进 行 信息 采集 和 
事件 要 素 自动 提取 ,在 此 基础 上 构建 疫情 事件 本 体 模型 。 然 后 ,设计 本 体 构建 与 更 新 算法 ,通过 该 算法 完成 事件 


本 体 的 自动 构建 与 扩充 。[ 结果 /结论 ] 研究 结果 表明 ,该 策略 具备 疫情 信息 动态 管理 与 自动 更 新 的 可 行 性 , 且 事 
件 本 体能 够 有 效 描述 事件 ,并 为 知识 的 拓展 创造 条 件 。 本 研究 为 应 急 管 理 决 策 的 相关 研究 与 实践 提供 一 定 的 参 
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词 : 事件 本 体 疫情 信息 与 知识 ”知识 库 


二 疫情 信息 是 突 发 事件 应 急 决 策 的 关键 依据 ,大 数 
据 环 境 下 产生 的 海量 疫情 数据 和 信息 为 疫情 有 效 防 控 
各 局 急 管理 能 力 提升 提供 支撑 ,基于 新 一 代 信息 技术 
插件 信息 管理 方案 成 为 学 术 界 和 相关 部 门 的 关 
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的 生 片 化 信息 更 新 不 及 时 、 信 息 壁 又 情报 分 析 能 
态 古 等 造成 疫情 信息 共享 与 管理 困难 ，” ,对 防疫 决 
策 痰 持 不 足 ,最 终 影响 了 应 急 响应 效率 ,制约 了 疫情 防 
控 的 效果 ,造成 应 急 管理 统筹 协调 不 力 。 疫 情 各 阶段 
涌现 的 大 量 非 结构 化 数据 对 传统 的 以 关系 数据 库 为 载 
体 的 结构 化 数据 采集 与 加 工 方式 带 来 了 挑战 。 因 此 ， 
当前 亟 需 疫情 信息 的 动态 采集 与 处 理 ,疫情 知识 自动 
表示 与 提取 ,信息 共享 的 智能 化 手段 ,在 此 基础 上 ,为 
应 急 决策 提供 关键 支撑 。 

在 社会 对 公共 卫生 突 发 事件 应 急 管理 智能 化 的 迫 
切 需求 下 ,笔者 聚焦 疫情 事件 ,以 网 络 疫情 信息 和 开放 
知识 图 谱 为 数据 源 ,采用 文本 分 析 和 事件 本 体 等 方法 
和 技术 研究 疫情 信息 和 知识 的 自动 表示 ,为 疫情 应 急 
管理 提供 智能 决策 支持 。 


1 相关 研究 综述 


1.1 疫情 信息 管理 与 知识 表示 的 研究 

包括 疫情 在 内 的 突 发 事件 的 信息 管理 与 知识 表示 
是 应 急 管理 的 重要 内 容 , 能 够 为 应 急 管理 提供 决策 依 
据 ” ,而 构建 知识 库 是 实现 疫情 信息 有 效 获取 、 组 织 、 
分 析 和 传递 的 重要 手段 ”。 通 过 文献 梳理 发 现 , 突 发 
有 件 的 信息 管理 和 知识 表示 主要 基于 信息 和 情报 系统 
建 模 \ 语 义 本 体 等 方案 ,为 应 急 响 应 中 的 信息 检索 和 决 
策 提 供 参 考 和 借鉴 。 其 中 ,W. B，Lee 等 提出 了 一 种 用 
于 应 急 管理 的 非 结 构 化 信息 管理 系统 ” ,通过 应 急事 
件 概 念 关系 模型 和 动态 知识 流 模 型 来 组 织 和 表示 突 发 
事件 知识 ;M，Dorasamy 等 通过 应 急 管理 信息 系统 来 解 
决 数据 管理 ,知识 共享 和 传播 问题 … ,为 应 急 管 理 人 员 
提供 关键 数据 \ 信 息 和 知识 ,促进 救生 信息 、 知 识 共 享 ; 
郭 骅 等 采用 信息 资源 规划 方法 组 织 突 发 事件 应 急 管 理 
情报 流 , 构 建 了 城市 应 急 管理 情报 平台 ” ,为 应 急 管理 
提供 动态 信息 和 知识 。 

在 将 本 体 应 用 于 应 急 知识 表示 的 研究 中 , 突 发 事 
件 网 络 与 情 知 识 表 示 ” 、 基 于 时 空 角度 的 突 发 事件 社 


Mihil 


jn 


* 本 文系 国家 社会 科学 基金 国家 应 急 管 理 体 系 建设 研究 专项 项 目 “基于 人 工 智 能 机 器 学 习 和 区 块 链 技 术 支 撑 的 疫情 监测 防 挖 研究 ”( 项 目 纺 


号 :20VYJ064 ) 研究 成 果 之 一 。 
作者 简介 : 能 励 (ORCID :0000 -0002 -6527 -0517 ) ,教授 ,博士 , 博 了 


生 导 师 ; 王 成 文 (ORCID:0000 - 0002 -7353 -472X) ,博士 研究 生 , 通 讯 


作者 ,E-mail:woncwen@163. com; 王 锟 (ORCID :0000 -0003 -2711 -6233 ) ,博士 研究 生 。 


收 稿 日 期 :2021 -01 -06 修 回 日 期 :2021 -02 -28 本 文 起 止 页 码 :138 - 148 ”本 文责 任 编辑 : 徐 健 


Chil naX ve 作 革 期 天 | 


驴 励 ， 王 成 文 ， 王 锟 . 基于 事件 本 体 的 疫情 知识 库 构 建 策略 [可 .图书 情 报 工作 ,2021,65(14) :138 - 148. 


会 感知 知识 本 体 模型 ” \ 面 向 火灾 的 本 体 应 急 知识 
库 " .地铁 事 故 本 体 模型 '" ,为 突 发 事件 的 应 急 响 应 
提供 了 决策 依据 。 相 关 研 究 适应 现代 应 急 管理 的 要 
求 ,逐步 从 静态 的 应 急 信息 管理 到 动态 的 知识 表示 ,为 
应 急 管理 提供 决策 支持 。 

疫情 信息 管理 策略 的 研究 相对 欠缺 ,有 主要 侧重 
于 传染 病 具体 证 状 与 病例 信息 的 分 析 与 管理 。 高 珊 等 
设计 的 传染 病 应 急 案例 处 置 本 体 模型 "2 ,对 传染 病 伟 
播 与 处 置 进行 知识 建 模 ; 方 安 等 面向 传染 病 病症 与 诊 
疗 的 知识 服务 平台 "1 ,将 概念 与 对 象 及 其 之 间 的 关系 
映射 为 知识 网 络 ;W，R，Hogan 等 开发 了 一 个 流行 病 
学 本 体 史 ,将 传染 病 信息 概念 化 ; 陈 晓 慧 等 通过 本 体 
实现 了 新 冠 肺 炎 病 例 活动 知识 图 谱 ' ,以 支持 传播 过 
程 和 病例 轨迹 的 分 析 ;A，Joshi 等 从 健康 状况 .传播 数 
量 村 方式 ,地 点 .时 间 几 个 维度 限定 传染 病 的 概念 范 
上 ,为 疫情 知识 表示 提供 了 参考 。 这 些 研究 主要 聚 
外 病理 与 诊疗 ,传播 等 角度 的 疫情 知识 组 织 ,有 助 于 
疯 蜀 的 监测 和 诊断 ,而 从 疫情 事件 角度 ,针对 疫情 整体 
态 演化 的 知识 表示 并 为 防疫 决策 提供 支持 的 策略 与 
并 融 的 研究 鲜 有 。 因 此 ,结合 新 冠 肺炎 疫情 防 控 中 暴 
We 
角 也 事件 为 脉络 ,探究 基于 动态 更 新 的 疫情 信息 
i 齐 识 表示 策略 。 
, 实 事件 本 体 的 相关 研究 
本 体 是 领域 内 实体 及 其 属性 .实体 间 关 系 的 概念 
化 尖 示 "1 。 从 基本 结构 来 看 ,本 体 包含 某 一 领域 的 基 
本 概念 (类 ) 集 、 体 现 概念 间 关 系 的 对 象 属性 集 、 界 定 
梳 答 特征 的 数据 属性 集 .表示 现实 世界 中 概念 模型 的 
实例 等 要 素 59 ,相关 研究 主要 基于 这 些 要 素 进行 本 体 
开发 与 应 用 。 事 件 是 指 在 特定 时 间 和 位 置 发 生 的 一 件 
事情 ,涉及 多 个 参与 者 "”-" ,并 显示 了 某 些 动作 特征 ， 
具体 包含 动作 、 参 与 主体 .事件 客体 .时 间 、 地 点 等 要 
素 。 事 件 本 体 模型 是 应 用 于 发 生 事件 的 认 知 表示 的 知 


识 架 构 ” ,事件 本 体 基于 该 框架 实现 事件 类 知识 的 形 
式 化 说 明和 共享 ,围绕 事件 主题 ,能 够 进行 知识 表 


示 、 语 义 化 和 推理 。 目 前 ,针对 事件 本 体 的 研究 主要 集 
中 在 通过 本 体 建 模 提取 和 分 享 领域 知识 (事件 本 体 的 
应 用 ) .本 体 的 建 模 与 构建 策略 (事件 本 体 的 开发 ) 两 
个 方面 。 

在 事件 本 体 的 应 用 方面 ,事件 本 体 为 突 发 事件 和 
社会 热点 的 知识 建 模 提 供 了 参考 方案 。 其 中 ,基于 共 
享 词汇 的 环境 污染 事件 本 体 模型 用 于 提取 多 种 污染 事 
件 中 的 语义 关系 ;基于 多 源 数据 的 洪水 应 急 决策 支 
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持 系统 采用 事件 本 体 对 复杂 情景 建 模 ” ;安全 事故 知 
识 事件 本 体 模 型 实现 了 安全 事故 案例 及 其 场景 的 动态 
ee 决策 依据 ;基于 事 
件 本 体 的 Web 服务 组 合 ” 体育 赛事 的 知识 表示 与 分 
类 ' 新 闻 推荐 ”的 研究 为 供需 信息 表示 和 兴趣 分 析 
提供 了 路 径 。 这 些 研究 丰富 了 事件 本 体 的 应 用 ,为 领 
域 知 识 表示 与 辅助 决策 提供 了 参考 与 借鉴 。 

在 本 体 建 模 与 开发 方面 ,人 工 方式 仍 是 主要 途径 ， 
但 这 一 策略 费时 费力 且 存 在 手工 失误 的 风险 ,提高 了 
本 体 研究 与 应 用 的 门槛 。 为 此 , 刘 思 仿 等 提出 了 自然 
语言 处 理 与 神经 网 络 结合 的 事件 本 体 自动 构建 的 理论 
方案 ,为 相关 研究 提供 了 理论 指导 。 在 具体 开发 层 
面 ,朱文 跃 等 围绕 事件 特征 与 结构 ,从 事件 类 别 . 事 件 
关系 与 实例 两 个 层次 来 设计 本 体 模 型 ,为 事件 本 体 
建 模 提供 了 基本 框架 ;J. I，Single 等 运用 自然 语言 处 
理 从 化 学 事故 数据 库 中 提取 事件 要 素 并 进行 事件 本 体 
填充 ,但 并 未 能 实现 实例 关系 的 自动 构建 ;0. Gur- 
buz 等 通过 句子 主 谓 宾 成 分 的 提取 来 确定 组 织 流程 的 
关系 与 状态 ,并 根据 词性 确定 事件 对 象 和 状态 等 要 
素 "” ,其 效果 依赖 于 文本 分 析 的 效果 ;J. A. Reyes-Or- 
tiz 通过 动词 名词 介词 短语 和 词缀 成 分 识别 事件 要 
素 ,但 对 专 有 和 名词 ,名词 短语 .量词 的 识别 和 提取 效 
果 不 佳 ; 王 思 丽 等 通过 词性 标注 对 领域 概念 进行 自动 
识别 ,为 本 体 自动 构建 的 前 期 工作 提供 了 思路 ;Q. 
Mao 等 通过 词性 和 句法 分 析 识 别 事件 及 其 要 素 ,为 
基于 语义 的 事件 演化 分 析 提 供 形式 化 知识 。 这 些 研究 
为 事件 要 素 的 识别 和 提取 提供 了 参考 和 借鉴 ,但 在 本 
体 构建 环节 多 采用 人 工 方式 ,难以 满足 大 规模 本 体 构 
建 的 要 求 。 

综 上 所 述 ,目前 针对 疫情 信息 管理 与 知识 表示 的 
研究 仍然 比较 欠缺 。 a 从 涉 事 
主体 ,时间 .地 点 等 角度 组 织 事件 知识 ,为 动态 知识 表 
示 .事件 演化 分 析 提 供 了 可 行 方案 ,也 为 疫情 知识 表示 
提供 了 思路 。 文 章 从 疫情 信息 和 知识 的 有 效 组 织 视角 
对 疫情 知识 表示 策略 展开 研究 ,设计 面向 网 络 数据 的 
知识 自动 表示 与 更 新 方案 ,以 强化 疫情 信息 和 知识 对 
应 急 管理 决策 的 支撑 作用 。 


2 _ 疫情 事件 本 体 模型 构建 


事件 本 体 模 型 是 事件 的 知识 框架 ,能 够 刻画 事件 
及 其 要 素 之 间 的 关系 ,是 事件 本 体 的 基本 框架 。 新 冠 
肺炎 疫情 产生 了 大 量 的 疫情 动态 信息 ,为 疫情 分 析 和 
知识 提取 提供 了 信息 资源 ,同时 也 增加 了 应 急 决 策 的 
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难度 。 笔 者 将 从 网 络 爬 取 的 疫情 播报 作为 基础 数据 
源 ,参考 文献 [ 16 ,31 ] 的 事件 类 框架 文献 [34 - 35 ] 的 
领域 概念 与 事件 识别 方法 ,采用 词性 分 析 、 命 名 实体 识 
别 和 语义 角色 标注 提取 疫情 事件 关键 要 素 ,围绕 疫情 
事件 要 素 展 开 事件 本 体 模型 的 设计 与 本 体 构 建 ,并 在 
此 基础 上 进行 本 体 的 拓展 。 
2.1 疫情 事件 要 素 分 析 

疫情 事件 本 体 的 构建 基于 事件 本 体 模 型 和 动态 、 
客观 的 疫情 事件 信息 。 新 冠 疫情 防 控 中 ,各 省 市 都 积 
极 对 本 辖区 内 的 疫情 事件 进行 了 客观 和 及 时 的 播报 ， 
为 疫情 情报 的 自动 、 及 时 采集 提供 了 便利 。 笔 者 以 官 
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方 疫情 播报 和 开放 知识 图 谱 为 数据 源 , 采 用 怜 虫 技术 
定时 采集 疫情 信息 ,运用 中 文 自然 语言 处 理 的 代表 性 
工具 LIP 来 处 理 疫情 信息 文本 ,规范 疫情 情报 语料库 ， 
设计 事件 要 素 列 表 构 建 算法 将 语义 角色 标注 与 文本 块 
一 一 对 应 。 语义 角 色 标 注 是 以 文本 的 谓词 为 核心 , 识 
别 其 他 成 分 与 谓词 的 关系 ,进而 实现 关键 信息 的 提取 ， 
笔者 将 其 作为 确定 疫情 事件 要 素 的 依据 。 语 义 角色 标 
注 识 别 了 疫情 事件 的 基本 要 素 ,为 疫情 事件 本 体 模 型 
和 事件 本 体 的 自动 构建 提供 依据 。 表 1 展示 了 从 上 海 
市 卫生 健康 委员 会 (简称 卫 健 委 ) 的 疫情 播报 信息 中 
提取 疫情 事件 要 素 的 过 程 。 


表 1 疫情 事件 要 素 提 取 过 程 示例 
文本 分 析 处 理 结 果 

一 文本 读 取 12 月 31 日 ,上 海 市 新 增 5 例 境外 输入 性 确诊 病例 。 新 增 治愈 出 院 7 例 , 其 中 来 自 俄罗斯 2 例 ,来 自 巴 基 斯 坦 1 例 ,来 自 加 拿 大 1 
> 例 ,来 自 安 哥 拉 1 例 ,来 自 西班牙 1 例 ,来 自 斯 治文 尼 亚 1 例 
文本 分 词 (seg): ['2020 年 ', 12 月 ', '31 日 ',',', 上海 市 “, ' 新 增 ', '5', ' 例 ', "境外 输入 性 病例 ','。',' 新 增 ', “治愈 出 院 病 例 ',，7',' 例 ',',"， 
Db Segs "其 中 ', ' 来 自 ',' 俄 罗斯 ', '2',' 例 ',',', "来自, ' 巴 基 斯 坦 ',，'1',' 例 ',“,',' 来 自 '，' 加 拿 大 ', '1',' 例 ',“,',' 来 自 ',' 安 哥 
LO 拉 '， 全，' 例 ，'…，， 来自， 西班牙 ,， 11，' 例 "，',，' 来自 ， 源 洛 文 尼 亚 "， 1 ，' 例 '，'。] 
CB 名 实体 识别 (nern): [Cas' 4, 4) ，(as' 17, 17), (5s, 22, 22), (ns', 27, 27), (ns', 32, 32), (ns’, 37, 37) (ns’, 42, 42)] 
OO x [ 上海 市 ,俄罗斯 ,巴基斯坦 ,加 拿 大 ,安哥拉 ,西班牙 ,斯 洛 文 尼 亚 ] 
< 十 [Lnt’, nt’, nt’, wp’, ns’, V’, m’, ‘q’, nl, wp ], [VV ,VvV, ‘m,n, Wp’, ns mwp' V', ‘ns’, ‘m 
[= ‘np ,er', to, hl, pt, ,a 国生 局 和 局 要 情人 仙人] 

词性 分 析 ( pos) ; [[['tim’, ‘as’, ‘act’, ‘num’, ‘eo'] , ['2020 年 12 月 31 日 ', ‘上海 市 ', ' 新 增 ', '5', ' 境 外 输入 性 病例 '] ], [['as’, ‘act’, 'eo’，' 


Pos 二 
ON num’, ‘fro', 'so', ‘fro', 'so', ‘fro', 'so', ‘fro', 'so”, 
请 义 角色 标注 (s) : 
加 上 Srl 


俄罗斯 ',' 来 自 ',' 巴 基 斯 坦 ',' 来 自 ', 加拿大 ',' 来 自 '，' 安 哥 拉 ',' 来 自 ', 西班牙，' 来 自 ， 


‘治愈 出 院 病例 ',，7',' 来 自 '，' 
洛 文 尼 亚 '] ]] 


'fro','so' ] , [' 上 海 市 ', ' 新 增 '， 


‘fro' ,'so’, 


[(5, [ ("TMP’, 0,2), ('AO0’, 4, 4), ('Al’, 8, 8), ('QTY’, 6,6)1), (10, [ ("TMP’, 0,2), ('A0’, 4,4), ('Al’, 11, 11), 
(QTY’, 12, 12)]), (16, [(°Al’,17,17), (A0’,11,11)]), (21, [CAL ,22,22)，(A0' 11, 11)]), (26, [('Al’, 27, 


27), ("AO’, 11,11)]), (31, [('Al’, 32,32), ("A0’, 11, 11)]), (36, [ ('A1’, 37, 37), ('A0’, 11, 11)]), (41, [('Al’, 


42, 42), ('AO0’', 11, 11)1)] 


FE 12 月 31 日 ', ‘上海 市 ', ' 新 增 ', ' 境 外 输入 性 病例 ', '5] ] ， 
E12 月 31 日 ', “上 海 市 ', ' 新 增 '， 

' 俄 罗斯 / 
', ' 巴 基 斯 坦 '] ] ， 
',' 加 拿 大 ' 


“治愈 出 院 病 例 ', 7'] ] ， 
i 


十 


mm 
> ran [[[’TMP’, ‘A0’, ‘Act’, 'Al’, 'QTY' ] , [ 2020 稀 
全 eleList [[ "TMP’, 'AO’, 'Act’, 'A1’, 'QTY’'] ，[ ‘2020 多 
ea [['A0', 'Act', 'Al1'] ,[ 治愈 出 院 病例 '，' 来 自 
Co [['A0', ‘Act', Al] ,[' 治 愈 出 院 病例 ',' 来 自 

[['A0', 'Act', 'Al'] ,[ 治愈 出 院 病例 '，' 来 自 
[['A0', 'Act', 'A1'] , [ 治愈 出 院 病例 '，' 来 自 
[['A0','Act', 'Al1'] ，[ 治愈 出 院 病例 '，' 来 自 
[['A0', 'Act', 'Al1'] ，[ 治愈 出 院 病例 '，' 来 自 
在 表 1 中 ,Ns 是 通过 LTP 命名 实体 识别 提取 的 命 


' 西 牙 ' 


民 
，' 安 哥 拉 '] ] ， 
ls 
'，' 斯 洛 文 尼 亚 '] ] 


表 时 间 ,A0 为 语义 角色 中 的 主体 标识 ,代表 事件 的 施 


名 实体 集 ,一 般 包括 人 物 、 地 名 等 ,由 于 笔者 主要 研究 
特定 区 域 的 疫情 动态 ,疫情 区 域 被 作为 疫情 主体 ， 
此 ,命名 实体 集 也 是 疫情 主体 集 , 代 表 各 区 域 疫情 发 生 
或 防疫 的 主体 。 

Pos 是 通过 对 分 词 文本 进行 词性 分 析 得 到 的 初 
始 事件 要 素 集 ,作为 事件 要 素 列 表 的 参照 。 初 始 事 
件 要 素 主 要 是 根据 主 请 宾 三 元 组 结构 和 词性 中 的 动 
名 词 形式 对 分 词 块 进行 重新 组 合 ,提取 的 事件 关键 
信息 


Co 


Sr 为 语义 角色 标识 集 ,是 采用 LTP 工具 包 识别 的 
以 文本 谓词 为 中 心 的 各 成 分 间 的 关系 。 其 中 ,TMP 代 


事 者 或 者 触发 者 , Al 为 语义 角色 标注 中 的 受 事 者 。 
Act 为 针对 疫情 信息 的 核心 谓词 , 即 疫情 事件 的 触发 动 
作 , 如 “新 增 "“ 来 自 ” 等 ,围绕 核心 谓词 ,可 以 确立 相关 
主体 与 对 象 之 间 的 对 应 关系 ,为 事件 知识 表示 提供 依 
据 。 按 照 表 1 的 文本 分 析 过 程 ,以 上 海 市 卫生 健康 委 
员 会 的 疫情 播报 信息 为 数据 源 ,发 生 时 间 \ 疫 情 主体 、 
防疫 对 象 .疫情 动态 及 状态 等 事件 要 素 被 确定 。 疫 情 
了 件 要 素 构 成 了 疫情 事件 本 体 的 基本 结构 ,为 事件 本 
体 模 型 的 设计 奠定 基础 。 为 了 便于 本 体 的 拓展 和 重 
用 ,本 文 进一步 拓展 了 防疫 资源 要 素 ,针对 防疫 主体 所 
属 资源 进行 扩充 ,如 表 2 所 示 : 


jn 


Mihil 
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表 2 疫情 事件 关键 要 素 
疫情 主体 。 ”防疫 对 象 ” ”发 生 时 间 触发 动作 ”疫情 状态 ”防疫 资源 
上 海 市 ”境外 输入 性 病例 12 月 31 日 ”新 增 ”新 增 境外 输 医疗 机 构 


西班牙 。 治愈 出 院 病例 12 月 30 日 来 自 入 性 病例 5 
非 律 宾 本 地 病例 ”12 月 29 日 和 新 增 治愈 出 
i 院 病例 7 
通过 事件 要 素 识别 的 疫情 事件 的 基本 结构 为 疫情 


事件 本 体 的 层次 结构 及 要 素 之 间 的 基本 关系 确定 提供 
直接 依据 ,是 疫情 知识 框架 的 基本 和 雏形。 基于 疫情 事 
件 的 关键 要 素 , 本 文 结 合 事件 的 四 维度 和 六 元 组 模 
型 “” ,对 疫情 事件 进行 界定 ,通过 五 元 组 描述 疫情 事 
件 ,如 式 (1): 
E = (TIM, Sub ,Act, Obi, Sta) 式 (1) 
在 疫情 事件 五 元 组 模型 中 ,E 代表 疫情 事件 ,TIM 
为 王 情 事件 发 生 时 间 ,So 为 事件 主体 , 主要 是 疫情 事 
传唱 的 施 事主 体 和 受 事主 体 , 包 括 疫情 爆发 区 域 、 防 疫 
等 。Act 为 事件 动作 或 触发 方式 ,如 “新 增 ”"“ 现 
有 累计 "等 。Obj 以 防疫 对 象 为 主 , 即 疫情 事件 的 客 


202304.0 


chinaXiv 


防疫 资源 


体 , 包 括 染 疫 对 象 潜在 疫情 风险 群体 等 ,也 存在 部 分 
作为 事件 受 事 者 的 疫情 主体 等 。Sta 为 疫情 事件 状态 ， 
体现 当前 疫情 的 发 展 状况 ,笔者 通过 提取 不 同事 件 的 
状况 作为 其 子 集 ,如 “新 增 治愈 出 院 病 例 5”。 每 个 疫 
情事 件 实 例 归属 于 疫情 事件 类 。 
2.2 疫情 事件 本 体 模 型 

基于 确定 的 事件 要 素 ,笔者 构建 了 疫情 事件 本 体 
模型 ,以 刻画 事件 本 体 的 基本 结构 ,并 为 疫情 事件 知识 
的 丰富 与 扩充 奠定 基础 。 疫 情事 件 本 体 模型 由 疫情 主 
体 、 防 疫 对 象 等 概念 ,以 及 刻画 概念 间 关 系 和 实例 状态 
的 一 系列 属性 组 成 ,是 事件 知识 表示 的 基本 框架 。 基 
于 疫情 事件 的 特征 ,结合 疫情 事件 关键 要 素 和 疫情 事 
件 本 体 应 用 的 需要 ,笔者 按照 知识 组 织 \ 丰 富 与 更 新 、 
应 用 的 思路 ,将 疫情 事件 本 体 模型 划分 为 概念 和 关系 
层 ,实例 层 和 应 用 层 3 个 层次 ,为 疫情 事件 本 体 的 构建 
和 自动 更 新 英 定 基础 。 疫 情事 件 本 体 模型 如 图 1 所 
示 , 其 中 蓝 色 线 部 分 为 根据 文本 内 容 自动 填充 的 信息 。 


a: 事 件 状 态 


源 漓 水 旺 诊 暮 


汀 误 将 


图 1 疫情 事件 本 体 模型 


在 疫情 事件 本 体 模型 中 ,由 事件 触发 动作 引申 出 
具体 的 事件 动态 (包括 关系 和 属性 )。 因 此 ,概念 和 关 
系 层 包 含 事件 要 素 类 及 要 素 间 的 关系 、 要 素 的 属性 等 ， 
它们 构成 了 事件 本 体 的 基本 结构 。 基 于 概念 与 关系 
层 , 实 例 层 包含 由 具体 动作 触发 的 具体 疫情 事件 及 事 
件 相 关 的 关系 和 状态 ,需要 疫情 数据 和 信息 的 填充 与 
实例 化 。 应 用 层 基 于 概念 层 和 实例 层 ,为 相关 应 用 提 
供 信息 检索 、 属 性 和 关系 的 动态 维护 、 辅 助 决策 .知识 
表示 等 功能 。 基 于 事件 本 体 模 型 ,事件 本 体 涉 及 的 基 
本 概念 ,关系 和 属性 展示 在 表 3 中 。 除 此 之 外 ,还 存在 


一 些 在 本 体 自动 填充 过 程 中 生成 的 概念 ,关系 和 属性 。 
表 3 疫情 事件 本 体 模型 包含 的 基本 概念 和 属性 


名 称 类 别 定义 域 值 域 说 明 
疫情 事件 E 类 一 疫情 事件 的 集合 

疫情 主体 ES 类 一 过 疫情 主体 的 集合 
防疫 主体 AES 类 二 s 防疫 主体 集合 ,ES 的 子 集 
防疫 对 象 AEO 类 一 一 防疫 对 象 的 集合 

防疫 资源 类 一 一 防疫 资 的 集合 

医疗 机 构 。 。 类 = - 防疫 资 的 子 集 
涉及 主体 mab、 对 象 属性 ”疫情 事件 疫情 主体 。 与 BS 间 的 关系 
发 生 时 间 tm ”数据 属性 ”疫情 事件 ”文本 值 疫情 事件 发 生 时 间 
疫情 状态 sta ”数据 属性 ”疫情 事件 ”文本 值 疫情 事件 的 状态 


再 至 
请 这 


拥有 资源 ” 对 象 属性 ”防疫 主体 ”防疫 资源 _AES 与 防疫 资源 的 关系 
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通过 对 疫情 事件 基本 概念 和 关系 的 梳理 ,笔者 进 
一 步 对 疫情 事件 本 体 的 层次 关系 进行 初步 搭建 ,构建 
疫情 事件 本 体 epi ,形成 本 体 文件 epieve. owl, 形 成 疫情 
知识 库 的 基本 架构 ,为 疫情 事件 实例 的 自动 填充 和 本 
体 的 重用 与 扩充 做 好 准备 。 


3 ”疫情 知识 库 的 构建 


本 研究 通过 网 络 爬 虫 和 文本 分 析 技 术 采 集 并 提取 
事件 要 素 ,构建 事件 要 素 列表 ,结合 疫情 事件 特征 设计 
事件 本 体 自动 构建 与 填充 算法 ,将 事件 要 素 列表 自动 
充实 到 事件 本 体 中 ,并 根据 应 用 需求 ,不断 融 合 开放 知 
识 图 谱 和 领域 本 体 , 形 成 疫情 知识 库 , 为 辅助 决策 提供 
支撑 。 笔 者 采用 图 2 所 示 的 事件 本 体 驱 动 的 疫情 知识 
库 构 建 过 程 ,方案 的 实现 分 为 疫情 信息 采集 和 预 处 理 、 

情事 件 要 素 提 取 疫情 知识 库 构 建 与 辅助 决策 3 个 
医 要 环节 ,以 上 海 市 2020 年 的 新 冠 肺炎 疫情 为 例 ,将 
洛 ee tion 


文本 分 析 、 自 然 语言 处 理 技术 


疫情 事件 要 素 提 取 


本 体 自 动 构建 与 填充 算法 


图 2 事件 本 体 驱动 的 疫情 知识 库 构建 过 程 


了 疫情 事件 要 素 提 取 

在 2.1 节 中 ,为 了 介绍 疫情 事件 本 体 模 型 ,笔者 简 
要 说 明了 通过 LTP 进行 疫情 文本 分 词 .命名 实体 识别 、 
语义 角色 标注 ,进而 构建 事件 要 素 列表 eleList 的 过 程 
( 见 表 1) ,为 了 明确 疫情 事件 的 基本 结构 ,本 节 将 对 疫 
情事 件 要 素 提 取 的 细节 做 进一步 说 明 。 疫 情事 件 要 素 
的 提取 关键 在 于 对 事件 的 语义 角色 标注 进行 检验 , 补 
充 缺 失 成 分 ,并 将 语义 角色 标识 与 文本 内 容 自 动 一 一 
对 应 ,以 要 素 列表 的 形式 存储 。 笔 者 设计 了 疫情 事件 
要 素 列 表 构 建 算法 ( 见 算法 1) ,以 准确 描述 客观 事件 。 

按照 LTP 语义 角色 类 型 的 约定 ,A0 代表 事件 触发 
者 或 施 事 者 ,Al 为 受 事 者 ,QTY 代表 数量 ,TMP 是 事件 
发 生 时 间 ,此 外 ,语义 角色 列表 中 的 首位 元 素 代 表 根 节 
点 , 即 中 心 谓词 ,体现 事件 的 动作 ,笔者 以 "Act” 表示。 
对 于 事件 主体 缺失 的 情况 ,如 “其 中 来 自 西班牙 1 例 ”， 


其 语义 角色 标识 为 (36，[(' AL ,37, 37)]) ,事件 主 
体 A0 的 部 分 丢失 ,笔者 通过 式 (2) 的 前 向 遍历 规则 找 
到 最 近 的 事件 主体 ,作为 该 三 元 组 的 主语 , 即 “ 治 愈 出 
院 病 例 来 自 西班牙 ”。 其 中 ,“ltp” 为 中 文 自然 语言 处 
理工 具 LTP, “ltp. seg” 和 “ltp. sql "分别 对 疫情 文本 进行 
分 词 和 语义 角色 标注 处 理 ,人 处理 产生 的 数据 集 参 照 表 
1 的 示例 。 
40' = segs(s) 
s=Srli" (k) 
mn = len(Sr (k)) 
i n=nifke|A0,41| 
=n_1ifke|A0,4l| 


式 (2) 


算法 1 疫情 事件 要 素 列表 构建 算法 

输入 : epiText # epiText 为 疫情 文本 

输出 : eleList # eleList 为 疫情 事件 要 素 列 表 
: Segs = [ltp. seg(epiText) ] # 文 本 分 词 ,Segs 为 分 词 集 
: Sr = [ltp. srl(epiText) ] # 语义 角色 标注 ,Sr 为 语义 角色 集 
: eleList = [],ek =[ ],ev=|[] 


: for srl in Srl and segs in Segs do 


1 
2 
3 
4 
5 : eve = [ 」# 初 始 化 事件 片段 
6 
水 
8 
9 


# 事件 触发 动作 


ek. append( 'Act’), ev. append(segs[srl[0]]) 
fors in srl[1] do 


t = ", ek. append(s[0]) 

for iin range(s[1], s[2] + 1) dot + = segs[i] endfor 
10: ev.append(t) 
11: eve = [ek, ev| 
12: endfor 


13: if AO’ not in eve[ ek| then 

14: eve[ ek |]. append('A0') ，eve[ ev]. append( A0';*—eq. (2)) 
15: endif 

16: eleList. append(eve) 

17: endfor 


18 : return eleList 


基于 自然 语言 处 理 的 事件 要 素 提 取 策 略 适 合 于 事 
件 概要 描述 层级 的 知识 元 素 的 提取 ,其 中 主要 涉及 词 
性 分 析 和 语义 角色 标注 ,并 被 广泛 应 用 于 文献 [31 ,35 ] 
等 事件 要 素 分 析 的 研究 中 。 为 了 强化 本 文 疫 情事 件 要 
素 提取 策略 的 有 效 性 和 针对 性 ,区 分 防疫 主体 AES \ 疫 
情 主 体 ES 和 防疫 对 象 E0 等 概念 并 与 事件 要 素 列 表 
对 应 ,命名 实体 匹配 .基于 词性 的 初始 事件 要 素 对 照 等 
机 制 被 引入 ,将 事件 要 素 与 事件 基本 概念 对 应 ( 见 图 
3) ,具体 的 实现 逻辑 体现 在 算法 2 疫情 事件 本 体 的 自 
动 构建 环节 。 
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2020 年 


4 Act,Al(es) \ 
nc 2 加 
Act,Al(es) 


elle lllel 


ee 
图 3 疫情 事件 要 素 与 事件 概念 的 对 应 
3. 多 疫情 知识 库 自动 构建 


< 十 基于 提取 的 疫情 事件 要 素 ,笔者 进一步 设计 了 算 
全 ne ,并 自动 创建 , 生 


元 组 图 结构 语义 本 体 数据 ,形成 疫情 知识 库 的 基 
。 基 于 疫情 事件 本 体 模型 ,疫情 知识 库 自动 构 
相关 全 .对 象 属性 和 数据 属性 进行 区 分 , 自 
建 并 完善 本 体 框架 ,然后 将 事件 要 素 区 分 为 实例 、 
兴 能 .属性 及 属性 值 , 以 三 元 组 形式 依次 自动 填充 到 本 
be 
会 针对 事件 主体 与 对 象 的 识别 与 区 分 ,首先 通过 
LE 对 事件 文本 的 所 有 命名 实体 进行 识别 并 提取 , 提 
由 办 名 实体 匹配 机 制 。 通 过 分 析 发 现 ,疫情 事件 中 的 
实体 全 部 为 全 球 区 域 , 即 为 疫情 事件 中 的 事件 主 
体 E5 命 名 实体 匹配 机 制 是 将 被 标识 为 A0 或 Al 的 事 
件 主体 与 被 识别 的 命名 实体 集 Ns 的 元 素 进行 匹配 , 匹 
配 到 的 A0 元 素 为 防疫 主体 as ,匹配 到 的 Al 元 素 为 疫 
情 主体 es ,未 能 匹配 到 的 元 素 是 防疫 对 象 eo 或 其 他 ， 
相关 概念 由 此 被 一 一 对 应 。 
算法 2 首先 将 疫情 事件 要 素 与 事件 概念 对 应 , 通 
过 三 元 组 形式 构建 概念 ee 
基于 唯一 资源 标识 URI 不 重复 地 将 类 、 属 性 添加 到 事 
件 本 体 ,由 此 构建 本 体 的 层次 结构 和 基本 关系 。 在 此 
基础 上 ,通过 事件 要 素 列表 读 取 疫 情事 件 要 素 ,构建 疫 
情事 件 实例 ,对 实例 要 素 进行 判断 , 若 要 素 对 应 于 事件 
主体 A0. 时 间 TMP. 受 事 者 A1 .量词 QTY 等 类 型 , 则 构 
建 要 素 的 URI 标识 ;其 次 ,判断 本 体 中 是 否 存在 相应 的 
成 分 , 若 不 存在 ,将 相关 要 素 自 动 添 加 到 本 体 ,并 填充 
要 素 之 间 的 关系 和 属性 值 。 最 后 将 填充 后 的 本 体 数据 
反 回 , 完成 疫情 事件 本 体 的 自动 构建 。 基 于 Protégé 平 


上 


算法 2 疫情 事件 本 体 自动 构建 与 填充 算法 

输入 :eleList ，epi，Ns，Pos # 事 件 要 素 列 表 , 事 件 本 体 ,命名 实体 旨 
基于 词性 的 要 素 集 

输出 :epi 

1 : Class(E,ES,EO,AES) € epi，AFES C ES 


nt 


2 : Property(rsub ,tim,sta) < epi 


3 : for eve[ele,seg] e eleList and eve. seg € segs do #seg 为 对 应 


的 句子 成 分 
4: as=es=eo = act= actl = sta=tme = ,num=0 
5: ek = eve.ele, ev = eve.seg 
6: ifek == AO0orek = = Al and ev in Ns and ev in Pos(as,eo, 
so) then 
不 汪 ifek = = AO then as = ev, epi.add( (as, type, AES)) 
8 : else es = ev, epi.add( (es, type, ES)) 
9 : endif 
10: elif ek = =Al and ev not in Ns and ev in Pos(as,eo,so) then 
11: eo = ev, epi.add( (eo, type, EO)) 
12: elif ek = = Actorek = = QTY or ek = = TMP then 
13 : fek = = Act then act = ev, epi.add( (act, type, object- 
Property) ) 
14: elif ek = = QTY then num = ev 
15 : else time = ev 
16: endif 
17: endif 


18: ee = ‘EE’ + time, epi. add( (e, type, E)) #e 为 疫情 事件 
19: actl = act + eo, epi.add( (actl, type, datatypeProperty)) 
20: epi. add((actl subPropertyOf, sta)) 

21: epi.add((e, tim, time)) 

22: epi.add((e, rsub, es)) 

23: epi.add((as, act, eo)) 

24: epi.add((e, actl, num)) 

25 : endfor 

26: return epi 


台 可 视 化 的 疫情 事件 和 防疫 主体 实例 见 图 4 和 图 5。 
三 @ EE2020-12-31 一 http://www.semanticweb.org/wcw/ontologies/epieve#EE2020-12-31 
Types@ Object property assertions @ 
时 疫情 事件 © 加 涉及 主体 安哥拉 
国 涉 及 主体 上 海 市 
加 涉及 主体 斯 治文 尼 亚 
国 涉 及 主体 俄罗斯 
加 涉及 主体 巴基斯坦 
加 涉及 主体 西班牙 
国 涉 及 主体 加 拿 大 


Same Indvidual As 图 


Different Indviduals © 


Data property assertions @ 
加 新 增 境外 输入 性 病例 5 
宇 新 增 治 章 出 院 病例 7 
国 发 生 时 间 "2020-12-31T23:59:59! 


图 4 事件 本 体 中 的 疫情 事件 实例 
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三 | 傅 上 海 市 一 http://www.semanticweb.org/wcw/ontologies/epieve# 上 海 市 


yes@ Object property assertions @ 
外 疫情 主体 辐 新 增 关联 病例 
息 防 疫 主 体 咽 排 除 疑似 病例 


别 新 增 境外 输入 性 病例 
本 新 增 确诊 病例 

加 新 增 治 意 出 院 病例 
呈 新 增 本 地 病例 


Same Individual As @9 


图 5 事件 本 体 中 的 防疫 主体 实例 
通过 算法 2 ,被 逐步 充实 的 疫情 事件 实例 如 图 6 所 


示 。 通 过 算法 的 循环 运行 ,新 的 疫情 信息 得 以 不 断 补 
充 ,可 以 实现 疫情 知识 库 的 自动 更 新 ,疫情 知识 逐渐 丰 


让 


国 o 
委 和 时间- 一 { OOSEURSID)] | 人 ( 交 W  ) 
| 人 数据 属性 信 】 
新 增 境外 输入 (二 条 庆生 全 
ms—| mss | -属性 名 称 必 | 
新 增 本 地 病例 -《 0) 


涉及 主 


图 6 通过 算法 2 自动 构建 的 疫情 事件 实例 


2304.00543 


3 基于 SPARQL 的 疫情 知识 库 更 新 
了 使 疫 情 知识 库 具备 基本 推理 和 基于 规则 的 更 
新 通力 ,以 支持 辅助 决策 ,笔者 设计 了 基于 查询 语言 
SRQL 的 知识 更 新 策略 。 一 方面 ,疫情 知识 库 可 以 
结 准 算法 1 和 算法 2 自动 提取 事件 要 素 并 进行 自动 更 
新 53 一 方面 ,也 需要 结合 特定 的 应 用 和 需要 ,设计 个 性 
化 的 规则 来 丰富 知识 库 。 笔 者 从 高 风险 事件 和 高 风险 


人 


算法 3 基于 SPARQL 的 疫情 知识 库 更 新 算法 

输入 : epi, X, starttime, Y 

输出 : epi 

1 : Hre = epi. query(Q1, X，starttime) # 执 行 SPARQL 查询 
2 : Hrs = epi. query(Q2, Y) 

3:ifHre! = [ ] then 

4 : epi. add( (HRE, subClassOf, E) ) # 创 建 “ 高 风险 事件 ”类 HRE 
5: forein Hre do epi.add((e, type, HRE)) endfor 
6 

7 

8 

9 


3 endif 
:if Hrs |! = [ |] then 
epi. add( (HRS, subClass0f, ES) ) # 创 建 “ 高 风险 主体 ”类 HRE 


epi. add ( (ren, type，datatypeProperty) ) # 创 建 “ 涉 及 事件 数 ” 


数据 属性 

10: for (es,en) in Hrs do 

11: epi. add( (es, type，HRS)) # es 为 高 风险 主体 
12 : epi. add( (es, ren，en) ) # en 为 涉及 事件 数量 
13: endfor 

14: endif 


15 : return epi 


算法 3 按照 Q1、Q2 的 查询 规则 提取 高 风险 对 象 ， 
创建 分 别 归属 于 疫情 事件 和 疫情 主体 的 两 个 子 类 ,将 
两 类 高 风险 对 象 分 别 归 类 ,并 针对 后 面 新 添加 的 信息 
进行 自动 更 新 操作 ,以 支持 在 风险 识别 下 的 应 急 辅 助 
决策 。 为 了 检验 算法 ,笔者 分 别 设置 了 相应 的 查询 参 
数 , 具 体 结果 如 表 5 所 示 : 

表 5 基于 SPARQL 的 疫情 知识 库 信息 更 新 示例 


主体 两 个 角度 设计 基于 SPARQL 的 查询 规则 ,并 结合 
算法 3 ,实现 知识 的 更 新 。 具 体 的 查询 规则 如 表 4 所 


不 : 
表 4 基于 SPARQL 的 知识 库 信息 更 新 规则 


规则 编号 基于 SPARQL 的 对 象 提取 功能 说 明 
Ql SELECT? e ? n 将 自 时 间 start- 
WHERE | time 以 来 新 增 境 


? e epi: 新 增 境外 输入 性 病例 ” n. 
? eepi: 发 生 时 间 ? 上 


外 输入 病例 数量 
大 于 X 例 的 事件 


FILTER(? n >X && ? t > starttime)| 提取 ,识别 为 高 风 
险 事件 
Q2 SELECT ? es (count(? e) as ? en) 将 涉及 事件 数 超 
WHERE | 过 YY 的 疫情 主体 
7 e epi: 涉 及 主体 ? es. 提取 ,作为 高 风险 
FILTER NOT EXISTS | ? es rdf:type epi: 防 主体 
疫 主体 上 


GROUP BY ? es 
HAVING(? en > Y) 


查询 参数 参数 值 更 新 类 ”更 新 实例 。 更 新 属性 
高 风险 事件 ”EE2020-12-19 无 
EE2020-12-22 
starttime 2020-12-25T23.59.59 
俄罗斯 
Y 40 高 风险 主体 兰 涉及 事件 数 
高 风险 主 涉及 事件 妆 
es 非 律 宾 


3.4 结果 分 析 

结合 大 数据 背景 下 突 发 公共 卫生 事件 信息 管理 和 
应 急 决 策 智 能 化 的 趋势 ,笔者 以 新 冠 肺炎 疫情 为 例 ,对 
疫情 知识 表示 策略 展开 研究 。 在 数据 源 方面 ,选取 上 
海 市 卫 健 委 的 疫情 播报 信息 为 基本 数据 源 ,采用 网 络 
扑 虫 动态 候 取 自 2020 年 1 月 以 来 的 疫情 信息 ,截至 12 
月 31 日 , 共 提 取 320 条 语 料 ,构建 疫情 语料库 。 在 方 
法 工具 方面 ,运用 Python 语言 对 文本 进行 规范 化 ,采用 
哈尔滨 工业 大 学 的 语言 技术 平台 工具 包 LTP 进行 语 料 
的 分 词 .命名 实体 识别 .词性 分 析 和 语义 角色 标注 , 通 
过 算法 1 对 语义 角色 标识 和 语 料 进 行 匹配 ,构建 事件 
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能 励 , 王 成 文 , 王 锟 . 基于 事件 本 体 的 疫情 知识 库 构建 策略 []]. 图 书 情报 工作 ,2021 ,65 (14):138 - 148. 


要 素 列表 eleList; 运用 算法 2 将 要 素 列表 eleList 中 的 
元 素 填 充 到 疫情 事件 本 体 epi, 同 时 实现 疫情 实例 相关 
信息 的 自动 更 新 。 笔 者 将 疫情 事件 本 体 作为 疫情 知识 
库 的 载体 ,借助 SPARQL 实现 算法 3 的 查询 规则 ,完成 
疫情 知识 库 的 动态 更 新 。 通 过 文本 实验 ,最 终 获取 包 
含 6 个 类 4 个 对 象 属性 ,9 个 数据 属性 ,410 个 实例 、1 
121 对 关系 和 918 条 数据 属性 值 的 疫情 领域 本 体 ,初步 
实现 了 一 个 面向 疫情 的 事件 本 体 知识 库 ,为 疫情 知识 


的 组 织 与 共享 提供 了 参考 和 借鉴 。 


为 了 进行 知识 拓展 ,笔者 分 别 选取 了 来 自 网 络 
(https:A/yyk.99. com. en/) 的 防疫 主体 所 属 的 防疫 资 
源 数据 (数据 集 1) 中文 开 放 知 识 图 谱 平台 (http:// 
www. openkg. cn/)“ 新 冠 开放 知识 图 谱 . 事件 ”( 数据 集 
2) 和 “新 冠 开 放 知 识 图 谱 . 流行 病 ”( 数据 集 3) ,对 疫情 
知识 库 进 行 丰富 和 扩充 。 防 疫 资源 是 防疫 主体 (上 海 
市 ) 的 三 甲 医院 ,其 数据 通过 网 络 爬 虫 疏 取 , 并 采用 算 
法 2 的 逻辑 ,按照 “防疫 资源 一 医疗 机 构 一 医院 "的 层 
次 来 扩充 ,示例 如 图 7 所 示 : 


三 合 复旦 大 学 附属 华东 医院 一 http:Jwww.semanticweb.org/wcw/ontologies/epieve# 复 旦 太 学 附属 华东 医院 


Types @ 


四 医院 


Same Individual As 十 | 


Different Individuals @ 


00543v1 


数据 集 2 和 数据 集 3 分 别 对 应 于 事件 模式 和 流行 
; xlsx Jjson 格式 数据 ( 见 图 8) ,笔者 运用 python 语 
言 双 其 进行 解析 ,将 id type、label、domain range sub- 
C 饼 of sabProperty 等 关键 字段 转换 为 概念 .示例 和 属 


‘aph”:[ 
{ 


“@id” :http://ww. openkg. cn/2019-nCoY/event/class/C0”, 
“@type” :http://ww. w3. org/2000/01/rdf-schema#Class’”, 
“label”: { 

“@language” :zh”, 

“@value”: “事件 ” 


chinaXiv 


]， 
{ 
“@id”: http://www. openkg. cn/2019-nCoY/event/class/C1”, 
“@type”: http://ww. w3. org/2000/01/rdf-schema#Class”, 
“label”: { 

“@language” :”zh”, 
, “@value”:“ 公 共 卫 生 事 件 ” 


(a) 数据 集 2 
8 数据 集 


通过 3 个 数据 集 的 扩充 ,疫情 知识 得 到 了 扩展 ,说 
明基 于 多 源 数据 的 事件 本 体 知 识 拓展 策略 的 可 行 性 。 
这 一 方案 为 将 疫情 事件 与 资源 .地 理 ` 人 群 . 疾 病 、 政 策 
等 领域 知识 的 融合 提供 了 参考 和 借鉴 ,为 基于 多 源 数 
据 的 应 急 决策 提供 了 可 借鉴 的 方案 ,也 为 进一步 的 疫 
情 知识 语义 推理 和 重用 奠定 了 基础 。 基 于 事件 本 体 的 
疫情 知识 库 自动 构建 结果 表明 ,结合 命名 实体 识别 , 词 
性 分 析 和 语义 角色 标注 的 自然 语言 处 理 等 技术 的 本 体 


Description: 复旦 大 学 附属 化 东 医 院 ” 回 四 巴 回 团 由 Property assertions: 复旦 大 学 附属 华东 医院 


7 ”对 疫情 知识 库 


CC A 不 安全 | openkg1.oss-cn-beijing.aliyuncs.com/05e9af15. 一 


“subClass0f”: http://www. openkg. cn/2019-nCoY/event/class/C0” 


Object property assertions © 


吴 防 疫 区 域 上 海 市 


Data property assertions © 


加 医护 规模 2200 

加 病床 数量 1300 

加 机 构 性 质 “" 公 立 /综合 医院 " 
可 机 构 等 级 “三 级 甲 等 " 


扩充 的 防疫 资源 示例 


性 ,基于 算法 2 的 思路 分 别 构 建 了 event 和 covid 两 个 
辅助 本 体 ,并 借助 protégé 本 体 编辑 工具 将 这 两 个 本 体 
合并 到 疫情 事件 本 体 中 ,最 终 的 疫情 知识 库 基本 结构 
如 图 9 所 示 : 


A 不 安全 | openkg1.0ss-cn-beijing.aliyuncs.com/56e2; 


{ 
“@id” : “http://ww. openkg. cn/COYID-19/epidemiology/class/C61”, 
“@type” : “rdfs:Class”, 
“rdfs:1abel1”: “流行 病 ”， 
“rdfs:subClassOf”: { 
“@id”: “http://wm. openkg. cn/COVID-19/epidemiology/class/C6” 
5 
“@id” : “http://www. openkg. cn/COVID-19/epidemiology/class/C7”, 
“@type” : “rdfs:Class”, 
“rdfs:1abel”: “流行 病 学 调查 ” 
入 
{ 
”: “http://www. openkg. cn/COVYID-19/epidemiology/class/C8”, 
“@type” : “rdfs:Class”, 
“rdfs:label“:“ 疫 源 地 7 
}; 


(b) 数据 集 3 
2 和 3 的 数据 片段 


自动 构建 与 填充 策略 能 够 实现 从 数据 采集 .数据 预 处 
理事 件 要 素 提取 、 事 件 本 体 自动 构建 和 填充 .知识 库 
自动 更 新 与 拓展 的 疫情 信息 管理 与 知识 表示 ,提升 了 
知识 库 构建 的 效率 并 降低 了 人 工 成 本 。 但 是 ,疫情 事 
件 本 体 自动 构建 策略 较 大 程度 上 依赖 于 文本 预 处 理 与 
自然 语言 处 理 策略 ,需要 开发 对 应 的 算法 来 驱动 本 体 
的 自动 化 构建 。 
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国家 政策 事件 
is—a is—a, 
AN 1s- 月 
Rv es 公共 卫生 S 
ee is-a 了 《公共 卫生 事件 )<4 
、 
SR 简单 事件 
疫情 is—a, (nD 
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防疫 对 和 > 
《0 is—a (六 i < is—a 
3 SS 
© 疫 源 地 一 2 Css) is-a 
= BN 
图 
< 十 传播 途径 
加 Cai 全) 
和 
CN 本 1 
©O 
CN a 
> 9 ”疫情 事件 本 体 扩充 后 的 概念 结构 
[1 J 
方向 。 
4>< 总 结 
和 参考 文献 : 


人 动态 .智能 的 信息 管理 与 知识 表示 是 疫情 应 急 管 

智能 决策 的 迫切 需求 ,也 是 大 数据 时 代 应 急 管理 
面 蛙 的 一 项 挑战 。 本 文 的 研究 结果 表明 ,综合 网 络 疏 
虫 .自然 语言 处 理 和 事件 本 体 的 策略 能 够 实现 疫情 信 
息 的 自动 采集 、 事 件 要 素 提取 、 知 识 库 自动 构建 和 更 
新 ,进而 为 疫情 信息 管理 和 知识 表示 的 智能 化 创造 条 
件 。 在 疫情 知识 的 扩展 和 重用 方面 ,多 源 数据 可 以 被 
解析 为 概念 和 实例 关系 类 型 ,并 以 三 元 组 形式 填充 到 
事件 本 体 ,或 被 融合 到 其 他 的 知识 架构 中 。 笔 者 所 提 
出 的 本 体 自动 构建 策略 为 疫情 知识 表示 和 动态 更 新 提 
供 了 参考 和 借鉴 。 

在 未 来 的 研究 中 ,可 以 选取 更 加 全 面 和 权威 的 多 
源 数据 ,并 设计 适用 性 和 可 扩展 性 更 强 的 自然 语言 处 
理 方法 ,以 实现 精确 可 靠 的 事件 要 素 提 取 。 此 外 ,在 以 
事件 为 线索 的 动态 知识 表示 方面 ,将 围绕 事件 主题 的 
大 规模 领域 知识 集成 以 实现 知识 的 自动 扩展 ,从 而 为 
智能 应 急 决策 提供 支撑 的 研究 将 是 一 个 有 重要 意义 的 
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Construction Strategy of Epidemic Knowledge Base Based on Event Ontology 
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Abstract: | Purpose/ significance | The fragmented and unstructured information of the epidemic brings challenges to 
emergency decision-making. To support the digitization of emergency decision — making and to promote intelligent emergen- 
cy management, combining natural language processing and event ontology to realize the automation of epidemic informa- 
tion management and knowledge representation. | Method/ process | An automatic construction strategy of domain ontology 
knowledge base based on web crawler, natural language processing, and event ontology was proposed. First, web crawlers 
and natural language processing were used for information collection and automatic extraction of event elements, and an ep- 
idemic event ontology model was built on this basis. Then, the algorithms for the ontology construction and update were de- 
signed, and the automatic construction and expansion for the event ontology was completed by them. | Result conclu- 
a The results show that the proposed strategy has the feasibility of dynamic management and automatic update of 
demic information, and event ontology can describe events effectively and create conditions for knowledge expan- 

LsSidn. This study also provides a reference for the research and practice of emergency decision-making. 
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